学习剂的实际应用需要样本有效且可解释的算法。向行为先验学习是一种有前途的方法,可以使工具探索政策更好或对早期学习的陷阱进行安全保护。现有的模仿学习解决方案需要大量的专家演示,并依靠难以解释的学习方法,例如深Q学习。在这项工作中,我们提出了一种基于计划的方法,该方法可以在强化学习环境中使用这些行为先验进行有效的探索和学习,我们证明以行为先验的形式进行了精心挑战的探索政策可以帮助代理商更快地学习。
translated by 谷歌翻译
在www.aicrowd.com平台上托管的学习竞赛自主赛车虚拟挑战由两个曲目组成:单摄像头和多相机。我们的Uniteam团队是单个相机轨道中的最终获胜者之一。该代理必须在最短时间内通过以前未知的F1风格轨道,而越野驾驶量最少。在我们的方法中,我们将U-NET体系结构用于道路细分,各种自动编码器编码道路二进制面具以及最近的邻居搜索策略,该策略选择给定状态的最佳动作。我们的经纪人在第1阶段(已知赛道)的平均速度为105 km/h,在第2阶段(未知轨道)上达到了73 km/h,而没有任何越野驾驶。在这里,我们提出解决方案和结果。代码实施可在此处提供:https://gitlab.aicrowd.com/shivansh beohar/l2r
translated by 谷歌翻译
Nostradamus, inspired by the French astrologer and reputed seer, is a detailed study exploring relations between environmental factors and changes in the stock market. In this paper, we analyze associative correlation and causation between environmental elements and stock prices based on the US financial market, global climate trends, and daily weather records to demonstrate significant relationships between climate and stock price fluctuation. Our analysis covers short and long-term rises and dips in company stock performances. Lastly, we take four natural disasters as a case study to observe their effect on the emotional state of people and their influence on the stock market.
translated by 谷歌翻译
当一家企业向另一家企业(B2B)出售时,购买业务由一组称为帐户的个人代表,他们共同决定是否购买。卖方向每个人做广告,并与他们互动,主要是通过数字方式进行的。销售周期很长,通常在几个月内。在寻求信息时,属于帐户的个人之间存在异质性,因此卖方需要在漫长的视野中对每个人的利益进行评分,以决定必须达到哪些人以及何时达到。此外,购买决定与帐户有关,必须进行评分才能投射购买的可能性,这一决定可能会一直变化,直到实际的决定,象征组决策。我们以动态的方式为帐户及其个人的决定分数。动态评分允许机会在长时间的不同时间点影响不同的单个成员。数据集包含与卖方的每个人通信活动的行为日志;但是,没有关于个人之间咨询的数据,这导致了决定。使用神经网络体系结构,我们提出了几种方法来汇总各个成员活动的信息,以预测该小组的集体决策。多次评估发现了强大的模型性能。
translated by 谷歌翻译